RuLegalNER: новый датасет для распознавания именованных юридических сущностей на русском языке
Аннотация:
Представлен новый датасет RuLegalNER, разработанный для обучения моделей распознавания именованных юридических сущностей на русском языке. Выполнена оценка способности моделей к обобщению при появлении в тексте ранее не встречавшихся именованных сущностей. Для автоматической разметки юридических текстов и создания набора данных RuLegalNER разработана программа на основе правил. Часть именованных сущностей в датасете была выделена в набор данных для валидации и тестирования и не встречается в обучающем наборе. Экспериментальная проверка датасета основана на базовой архитектуре RuBERT. Исследовано два расширения архитектуры: RuBERT с использованием CRF (Conditional Random Fields) и адаптеров. На основе архитектур выполнено обучение и оценка модели распознавания именованных сущностей на наборе данных RuLegalNER. Предложенный набор данных RuLegalNER может быть использован для создания новых моделей распознавания именованных сущностей в юридических текстах, что позволит автоматизировать контент-анализ юридических документов. Опубликована версия RuLegalNER с подробной статистикой и демонстрацией полезности набора данных RuLegalNER путем оценки на основе современных архитектур.
Ключевые слова:
Постоянный URL
Статьи в номере
- Определение типа действия ингибиторов гидратообразования по их инфракрасным спектрам
- Спектроскопия комбинационного рассеяния света в исследованиях процессов инактивации бактериальных микроорганизмов
- Численное исследование влияния концентрации метгемоглобина в крови на поглощение света в коже человека
- Низкотемпературная ячейка для инфракрасных фурье-спектрометрических исследований углеводородных веществ
- Особенности выращивания твердых растворов Ga1–xInxAs на подложках GaAs в поле температурного градиента через тонкую газовую зону
- Усовершенствованный протокол безопасности на основе AES-GCM для защиты связи в интернете вещей
- Атаки на основе вредоносных возмущений на системы обработки изображений и методы защиты от них
- Сверхвысокое разрешение изображения магнитно-резонансной томографии головного мозга с использованием дискретного косинусного преобразования и сверточнойнейронной сети
- Метод аугментации текстовых данных с сохранением стиля речи и лексики персоны
- Верификация событийно-управляемых программных систем с использованием языка спецификации взаимодействующих автоматных объектов
- Интеллектуальная система адаптивного тестирования
- Нейросетевой метод визуального распознавания голосовых команд водителя с использованием механизма внимания
- Сегментация опухоли головного мозга на магнитно-резонансной томографии с использованием нечеткого деформируемого слияния и алгоритма Dolphin-SCA
- Оптимизация систем отслеживания человека в виртуальной реальности на основе нейросетевого подхода
- Погрешности алгоритма демодуляции с генерируемой фазой несущей, вносимые фильтром низкой частоты
- Моделирование процесса корректировки формы роторов шаровых гироскопов
- Метод пространственного мультиплексирования в многоантенных системах связи
- Математическое моделирование теплообменного аппарата с учетом сильной зависимости вязкости нефти от температуры
- Подход к формированию обобщенных параметров технического состояния сложных технических систем c использованием нейросетевых структур
- Численное моделирование газодинамики при работе широкодиапазонного ракетного сопла с пористой вставкой
- Точное решение задачи отражения ударной волны от стенки, экранированной слоем газовзвеси
- Адаптивный наблюдатель переменных состояния нелинейной нестационарной системы с неизвестными постоянными параметрами и запаздыванием в канале измерений